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In Verbindung mit einer konfigurierbaren und zur Lauf- 
zeit umkonfigurierbaren Einheit zur Verarbeitung von nu- 
merischen und togischen Operationen (PAE), zum Einsatz 
in Prozessoren (CPUs), Mehrrechnersystemen, Oaten- 
flu&prozessoren (DFP^), Digitalen Signal Prozessoren 
(DSP&), systolischen Prozessoren und programmierbaren 
Logikbausteinen (FPGAa), gesteuert von einer Ladelogik 
(PLU), wirdfolgende Konfiguration vorgeschlagen: 
Es tst eine programmierbare Recheneinhett (EALU) zur 
Durchfuhrung der mathematischen und logischen Grund- 
funktionen vorgesehen, deren Funktion und Vernetzung 
in Registem program miert wird und in denen eine Viel- 
zahl von Daten, ohne Umprogrammierung der PAE, verar- 
beitet werden kann, 

Zur Steuerung der Recheneinheit (EALU) ist eine Zu- 
standsmaschine (SM-UNFT) vorgesehen; ferner sind fOr 
jeden Operanden (O-REG) und das Ergebnis (R-REG) Re- 
gister vorgesehen, die teihweise als Schiebe register busp 
gefuhrt werden konnen. Die Ruckkopplung der Oaten des 
Ergebnisregisters erfolgt uber einen Multiplexer 
(R20-MUX) auf einen Eingang der EALU. Eine Buseinheit 
(BM-UNIT) ermoglicht den Abgriff der Oaten von einem 
Bussystem bzw. das Einspeisen des Ergebnisses auf ein 
Bussystem, wobei die Buseinheit Oaten an mehrere Emp- 
f anger versenden kann und die Synchronisterung auch 
mehrerer Empfanger automatisch erfolgt. 
Der Buszugriff von der Datenverarbeitung in der EALU tst 
uber die Register entkoppeh, wobei jede PAE als unab- 
hangige Einheit betrachtet werden kann, so daG die ... 
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Beschreibung 

1. Hinlergnind der Erfindung 

5 1.1 Stand der Technik 

In der OfPenlegungsschrift DE 44 16 881 Al ist ein Verfahren zur Verarbeitung von Daten beschrieben. Dabei werden 
in ihrerFimktion und Vemetzung weitgehend frei konfigurierbarc, homogen angeordnele Zellen verwendet. 
Unabt^gig von der erwShnten OfFenlcgungsschrift weiden zunehmend FPGA-Bausleine (frei programmiarbare Lo- 
10 gikbaustcine) verwendet, uni Rechenwerke und Datenverarbdtungseinrichtungcn aus einer Vielzahl einzelncr Logikzel- 
len aufzubauen. 

Ein weitercs bekanntes Verfahren ist der Aufbau von Datcnveraibeitungseinrichtungen aus festen, programmgesleu- 
erlen Rechenwaken mit weitgehend fester Vemetzung, sogenannten systolischen Prozessoren. 

15 1.2Probleme 

1 .2.1 Bausteine nach DE 44 16 881 Al 

Bausteine nach dem in DE 44 16 881 Al beschriebenen Verfahren fun folgenden VPUs genannt) sind aufgnind der 
20 hohen Zahl kleiner Logikzellen sehr aufwendig zu konfigurieien. Zur Steuerung einer Logikzelle sind mehrere Sleuer- 
Bil in fdnem statisdien Speichcr (SRAM) anzugeben. Fiir jede LogikzeUe existiert eine SRAM-Adresse. Die Zahl der zu 
konfigurierenden SRAM-Zellen ist sehr hoch, was zu einem «rheblichen Platzbedarf und Zeitaufwand fiir die Konfigu- 
ration und Umkonfiguration eines solchen Baustrines fuhit. Der hohe Hatzbcdarf ist besondeis unangenehm, da die 
arbdtungsleistung einer VPU mit stcigender Zahl der ZeUen zunimmL Jedoch ist die verwendbare Fmche eines Baustei- 
25 nes durch die Chipfertagungstechnologien begrenzt. Der Prds eines Chips steigt etwa quadratisch zur Chipflache. Auf- 
gnind der mehrfach abgebildeten Next-Neighbour Vemetzungsstruktur ist ein Broadcast, also das Senden von Daten an 
mehrere Empfanger gleichzcitig, unm5glich. Solllen VPUs im Betrieb umkonfiguriert werden, ist cs zwingend crforder- 
lich kurze Umkonfigurationszeiten zu erreichen. Dagegen steht jedoch die grofie Anzahl an Konfigurationsdaten die be- 
notigt werden, urn den Chip umzukonfigurieroi. Es existiert keine Moglichkeil ZeUen von der ^fersorgungsspannung zu 
30 trennen oder langsainer zu takten, um die Veriustleistung zu niininueren. 

1.2.2 FPGAs 

Fur den beschriebenen Einsatzbereich inleressante FPGAs besiehen zumeisl aus Multiplexer oder Look-Up-I^ble 
35 (LUT) Strukturen. Zur Implementierung werden SRAM-ZeUen eingesetzL Aufgrund der Mclzahl an kldnen SRAM- 
Zellen sind sie sehr aufwendig zu konfigurieren. Es sind groBe Datenmengoi erforderlich, die einen entsf^echend groBen 
Zeitaufwand zuni Konfigurieren und Umkonfiguricren erfordera. SRAM-ZeUen benotigen sehr viel Platz. Jedoch ist die 
verwendbare Flache eines Bausteines durch die Chipfertigungsiechnologien begrenzt Der Ptds steigt auch hicr etwa- 
quadratisch zur Chipflache. SRAM basierende 'Ibchnologie ist durch die Zugriffszeit auf den SRAM langsamer als dirckt 
40 integrierte Logik, Obwohl viele FFGAs auf Busstrukturen aufbaucn, sind keinerlei Broadcast-Moglichkdten zum 
schneUen und effektiven Senden von Daten an mehrere Empfanger glcichztttig gegebcn. SoUcn FPGAs im Betrieb um- 
konfiguriert werden, ist es zwingend erforderlich kurze Konfigurationszeiten zu erreichen. Dagegen steht jedoch die 
groBe Anzahl an Konfigurationsdaten die benoUgt werden. FPGAs bieten keincriei UnterstQtzung filr eine annvollc Um- 
konfigurierung im Betrieb. Der Programmierer hat dafiir zu sorgen, daB der \fergang ordenflich ohne storende Einfliisse 
45 auf Daten und umgebende Logik ablauft Eine inlelligente Logik zum I^nimieren der NfadusUcistung ist nicht vorhan- 
den. Bs bestehen keine spezieUen Funktionseinheiten, die eine Ruckmeldung der intemcn BetriebszustSnde an die das 
FPGA steuemde Logik ermoglichen. 

1 .2.3 Systolische Prozessoren 

50 

Bei systolischen Prozessoren entfallt die Umkonfigurierung kompletl, jedoch sind diese Prozessoren unflcxibcl, da ae 
einen starren interoen Aufbau besilzen. Befehle werden in jedem Zyklus neu dekodiert We berdts in der beiden voihe- 
rigen Abschnitten besdirieben fehlen Funklionen, die ein Broadcasting oder die effiziente Minimiening dw Verlusdci- 
stung beinhalten. 

55 

L3 Verbesserung durch die Brfindung, Aufgabe 

Die Erfindung umfaBt ein kaskadierbares Rechenwerit, das flexibel in seiner Funktion und \femetzung kOTfiguneibar 
ist Es benotigt wahrend der Ausfuhrung des Algorithmus keine Befehlsdekodierung. Es ist im Betrieb umkonfigurierbai; 

60 ohne EinfluB auf die umgebenden Rechenwerice, Verari>eitungsmodule und Datenstrome zu haben. Die Menge der Kon- 
figurationsdaten ist sehr kldn. was sich gunstig auf Platzbedarf und Konfigurationsgeschwindigkeit auswirict Um groBc 
Datenmengen schneU und effizient zu verteilen wird Broadcasting iiber die intemen Bussysteme unterslutzt. Das Re- 
chenwerk ist mit einer Stromsparfunktion ausgeslattet wodurch die Stromaufhahme komplett ausgeschaltet wird, ebenso 
exisdert ein Taklteiler, der es ermoglicht das Rechenwerit mit einem geringerra Takt zu betrieben. Fiir Riickmeldungen 

65 der intenien ZustSnde an die exteinen Steuerungeo steben besondere Mechanismen zur VerfQgung. 
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2. Beschreibung der Erfindung 

2.1 Obexsicht iiber die Erfindung, Abslrakl 

Die Erfindung beschreibt den Aufbau einer ZeUe im Sinne von DE44 16 881 Al oder bekannter FPGA Zellen. In 
diese Zelle integriert ist eine um Sonderftinktionen erweiterte Arithmetisch-Lx)gische-Einheii (EALU), die die Datenyer- 
arbeilung durchfuhrt Die EALU wird iiber ein Funktionsrcgisterregister konfiguriert, dadurch sinkt die fiir die Konfigu- 
ration erfoideriiche Datenmenge erhd>lich. Die Zelle ist uber ein Bussystenn frei kaskadierbar, dabei ist die EALU vom 
Bussystem iiber En- und Ausgabercgister entkoppciL Die Ausgaberegister sind auf einen Eingang der EALU zuruckge- 
fiihrt urn serielle Operationen zu ennoglichen. Die Aufschaltung auf den Bus iibeminuut eine Bussteuercinheit, die den 
Bus entsprcchend dem Busregister vemetzi. Dabei ist die lanheil so konzipiert, daB das Verteilen von Daten an mehrere 
Empfanger (Broadcasting) moglich isL Eine Synchronisationsschaltung steuerlden Datenaustausch zwischen mehreren 
Zellen iiber das Bussystem. Die EALU, die Synchronisalionsschallung, die Bussteuercinheit und die Register sind so ge- 
stallet, daB eine Zelle unabhangig von ihrcn Umgebungszellen im Betrieb umkonfiguriert werden kann, Uber das Funk- 
tionsregistcr kann ein Stromspannodus konfiguriert werdrai, der die Zelle abschaltet, ebenfalls konnen Takttdler einge- 
stellt werden, die die Aibeitsfrequenz v^rringem. 

2.2 Detailbeschreibung der Erfindung 

Die Erfindung beschreibt den Aufbau einer Zelle (PAE=Processing Array Element) im Sinne von DE44 16 581 Al 
Oder bekannter FPGA ZeUen, dabei and die PAEs zu einem Array (Processing Array = PA) kaskadieibar. Eine PAE ist 
aus einer Vielzahl von Funktionseinheiten aufgebaut: 

2.2.1 EALU 

Das Rechenweric bestcht aus dner fest in Logik implementierten erweiterten Arithmetisch-Logischen-Einheit EALU. 
Eine VALV ist eine gewohnliche Arilhmctisch-Logische-Enhcit nach dem Stand derlfechnik (ALU), die durch spezielle 
Funktionen, wie Zahler erwdtert ist. Diese EALU ist in der Lage eine \^elzahl von arithmetischen und logischen Ope- 
rationen durchzufuhren, ohnc hier genau spezifiziert weiden zu miissen, da auf ALUs die dem Stand der Ibchnik entsi»e- 
chen zuruckgegriffen werden kann. Die EALU hat direkten Zugriff auf ihre eig^n Ergebnisse, diese werden wir nacb- 
folgend beschrieben als Operand zuriickgefuhrt Dadurch sind Zahler oder serielle Operationen, wie die serielle Multi- 
plikation. Division oder Reihenenlwicklungen, moglich. Die EALU liefert nebcn ihrem Eigcbnis die Signale CarryOut- 
AlessB und AequalB-Odetect CarryOut>AlessB gibt entweder bei arithmetischen C^)erationen das Carry an, oder bei 
VeiBleichen mittels einer Subtraktion zweier Werte ^bt d« Obertrag, also CanyOut-AlessB, daB A < B, bzw. B < A, ab- 
hSngig vom negierten Operanden an. Das Signal ist das tiblicbe Canry generiert durch einen \blladdierer. AequalB-Ode- 
tect gibt an, daB das Eigebnis im Ergebnisregister R-R£Gsft gleich 0 ist Das Signal wird Ober ein NOR aus dem Eigeb- 
nis generiert Die Signale werden zur cinfachen Auswertung von ZustSnden verwendel und konnen an die PLU zuriick- 
geliefert werden. Weitere Statusagnale sind je nach Anwendung implementierfoai: 

Die Funktion der EALU wird in einem Funktionsregister (F^PLUREG) konfiguriert. 

2.2.2 O-REG 

Die Eingangsoperanden dor EALU wwden in zwei unabhangige Operandenregister (O-REG) gespeichcrt Dadurch 
stehen sie unabhangig des Zustandes der Einheit, die die Daten liefert (Datens^der) zur ^ferfiigung. Dies ist nolwendig 
um eine Entkopplung vom Bus und eine fireie Umkonfigurierbarkeil des PAs zu ermdglichen. Eines oder beide O-REG 
besitzen eine Schiebefunklion, die von der EALU fur ggf. jedes O-REG einzeln angesteuert wild. Die ScMebefunktion 
ermogUcht das Durchfuhren von seriellen Operationen wie serielles Multiplizimn oder Dividierai im EALU. O-REG 
mit Scheibefiinktion werden als O-REGsft bezdchnet 

2.2.3 R-REGsft 

Das Ergebnis der EALU wird in einem Ergebnisregister gespeicherl (R-REGsfl). Dadurch wild die zdtlicbe Unabhan- 
gigkdt von der oder den das Ergebnis empfangenden Einheiten (Datcnempfanger) erreicht Das R-R£Gsft besitzt eine 
Schdbefiinktion, die von der EALU angesteuert wird, wodurch serielle Operationen ermoglicht weiden. 

2.2.4 R20-MUX 

Die Ergebnisdaten, die in R-REGsft stehen, werden Uber einen Multiplexer (R20MUX) zvwschen einem der OREG 
und der EALU als C^rand eingeschleift, um eine Ruckkopplung des Ergebnisscs fiir serielle Operationen, ZShler und 
ahnliche Funktionen zu gewahrieisten. Der Multiplexer wird durch das F-PLUREG eingestdlt 

2.2.5 T^ctzyklen 

Es ist sinn voU, jedoch nicht zwingend erforderlich, die O-REG(sft) bei einer l^ctflanke anzusleuem und die R-REGsft 
bd der daraufifolgend negierten mtflanke. Dadurch hat die EALU einen Halbtakt zur Ausfiihrung ihrer Funktion zur 
Verfugung, der zweite Halbtakt steht fur Signallaufzeiten und Multiplexer zur Verfiigung. Dadurch wird es moglich in je- 
dem l^t eine komplette Operation auszufiihren. 
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2.2.6 StateMachine, SM-Unit 

Zur Ablaufsteuerung in der EALU exisliert eine SM-UNIT. Diese sleuert die 0-REG und R-REGsfl und deren Schie- 
befunktion, sowie R20-MUX. Dadurch wird erreicht. daB serielle Optarationen, Schiebe- und Zahlfiinktionen einfach 
5 von der EALU durchgefuhrt werden konnen. Die StateMachine isl dabei nach dem Sland der Tfechnik einfach zu imple- 
mentieren. 

2.2.7 Sync-UNTT 

10 Zur Synchronisalion einer PAE innerhalb eines Arrays (PA) aus PAEs isl eine Synchronisalionseinheit (Sync-UNTT) 
vorhanden. Diese wertet eine Reihe von Eingangssignalen, die ein HandshakeProtokoU ausfiihren, aus. 

rACK(h/l): Der Dalenempfanger quitiiert die empfangenen Daten. Dabei ist rACKh die Quittierung des hohen Eigebnis- 
bytes (Bit 8 bis 15) und rACKl die des niederen Eigebnisbytes (Bit 0 bis 7). Beide werden verUNDet (rACKh UND 
15 rACKl) und ergeben das Signal rACK. rACK ist nichl wahr, wahrwid einer oder beide Dalenempfanger mil der Verar- 
beitung ihrcr Daten beschaftigt sind und wird wahr wenn die Verarbeitung der Daten beider Dalenempfanger abgeschlos- 
sen ist und das Ergebnis im R-REGsft des jeweiligen Datenempfangers gespeichert ist Die Signale rACK(h/l) werden i m 
weileren ofUnals in ihier verUNDeten Form als rACK (= rACKh & rACKl) belrachtet 

oRDY(l/2): Der Datensender signalisiert seine Bereitschafl neue Daten zu senden. oRDY ist nicht wahr. wahrend der 
20 Datensender mit der Verarbeitung seiner Dalen beschaftigt ist und wird wahr, wenn das Ergebnis des Datensenders, das 
der Operand der PAE ist, zur Verfiigung steht Dabd ist oRDYl das Freigabesignal des Datensenders des ersten Operan- 
den und oRDY2 das des Zweiten. Beide werdoi verUNDet (oRDYl UND oRDY2) und ergeben das Signal oRDY. 
oRDY ist nur wahr, wenn beide Datensender bercit and Daten zu versenden. Die Signale oRDY(l/2) weiden im weite- 
icn oftmals in ihrer verUNDeten Form als oRDY (=oRDYl & oRDY2) betrachtet 

25 

Aus den Eingangssignalen und dem Zusland der Sync-UNTT, der zusammcn mit der Ablaufsteuerung der EALU den Ge- 
samtzustand der PAE darstellt, werden Ausgangssignale generiert, die von den Sync-UNTft der Datensender und -emp- 
finger ihrciscits als Eingangssignale betrachtet werden. Zur Ablaufstcu«ung dor EALU werden deren Statusinformatio- 
nen und das Register F-PLUREG verwendeL 

30 

rRDY: Zeigt an, daB die PAE ihre Datenverarbdtung beendet hat und ein Ergebnis im R-REGsft zur Verfiigung steht 
rRDY wird als rRDYh und rRDYl an beide Dalenempfanger ubertragcn. Dabei handelt es sich jedoch urn dasselbe Si- 
gnal! 

oACK: Zeigt an. daB die PAE ihre Operanden veraibeitet hat und neue Daten in den 0-REG(sft) aufnehmen kann. oACK 
35 wird als oACKl und oACK2 an beide Datensendw- Obcrtragen. Dabei handelt es sich jedoch um dasselbe Signal! 

Die RD Y-Signale behalten ihren Pegel bis zum Hngang der Quitliening durch ACK bei. Dies ist erforderUch wenn der 
Dalenempfanger wahrend der Bereilstellung der Daten umkonfigurierl wird. Steht RDY bis zur Quiuicrung durch ACK 
an, so erkennt der Dalenempfanger nach der Umkonfiguriorung, daB Dalen bereitstehen und nimmt sie an. 
Die Vcrkniipfiing der Signale ubcr mehreie PAEs stelU sich wie folgt dan 

^ ^ I.- 

Datensender PAE Datenempfanger 

rRDY — > oRDYrRDY —J- oRDY 

rACK f— oACKrACK <— oACK 

45 Das bedeutet z. B. das Ausgangssignal rRDY des Datensenders slellt das Eingangssignal oRDYl oder oRDY2 der 
PAE dar. Das Ausgangssignal rRDY der PAE slellt das Eingangssignal oRDY des Datenempfangers dat 
IMe Sync UNTT besitzl folgende Ablaufarten: 





Modus 


Beschreibung 


Bemerkung 


50 


V^arten OP 


Die PAE wartet auf Operanden 


Nur wenn kmne mehizykli- 






sche Operation ablauft 




Zyklus 1 


£Sne einzyklische Operation 


Operanden werden qtiittiert 




wird duidigefOhrt 
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Zyklus n 


Ein Zyklus einer mehrzyklisdien 




Operation wird durchgefOhrt 


Operanden werden quittiert 




Zyklus Z 


Der letzte Zyklus dner 




mehrzyklischen Operation • 








wird durdigqfilhrt 


Nur wenn vorhergehendes 
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WartenERG 


Die PAE wartet auf die 






Quittierung des Ergebnisses 


Ergebnis exiastiert 




Stop 


Ausfuhnmg nach Beendigung des 






laufenden Zyklusses anhalten, 
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.dann ReConfig quittieren, wenn 








auch Ergebnis quittat wurde 






Die Sync-UNTT stcUt einen besonderen Modus zur Verfiigung, der das Taktsignal nur freigibt, wenn Operanden zur 
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Verfugung stehen. Dieser Modus ist vor allem dann sinnvoll, wenn die Datensender die Daten nicht in jedem Prozessor- 
takl liefem, sondern nur jeden n. Takt. Dabei entspricht det Takt einer Periode des Nonnaltaktes und wird uber rACK 
odo- oRDY(l/2) fircigegeben. Die Freigabe wird als OneShol bezeichnet. Dta- Modus wird als OneShot-MODE bezeich- 
net Dabei wird der Takt uber ein UND-GaUer mil einem der Freigabesignale vorUNDct. Der Modus und die Signalaus- 
wahl findet uber das F-PLXJREG statL Das Frcigabesignal, generiert uber rACK oder oRDY(l/2). kann von der SM- 5 
UNIT vcrlangert werden. Dies ist erforderlich, damit Operationen, die mehr als einen T^t b«Jotigen im OneShot- 
MODEduichgeftihrt weiden konnen. Um dies zu erraoglichen, wird eine entsprechende Signalleitung der SM-UNTf mil 
dem Frcigabesignal veiODERt. 

Wild der Rcgistereintrag STOP im F-PLUREG gesetzt, so fuhrt die Sync-UNTT die iaufende Funktion zu Ende. Da- 
nach weiden keine wdtercn Operanden mehr angenommen unci quiuiert. Sobald rACK anzeigU daB das Ergebnis vom 10 
Datenempfanger angenommen wurde. wird die Umkonfigurierungsbcreitschaft der PLU durch das Signal ReCcmfig an- 
gezeigt. Das Signal wird gcnerieit, indem rACK das Stop des F-PLUREG in ein D-FlipRop speichert. ReConfig kann 
durch einen lesenden Zugriff der PLU auf F-PLUREG an der Bitposition von Slop abgefragt werden, 

Ebenfalls kann die Sync-UNTT dazu verwendel werden Fchierzustande oder weitere Siatussignale zu generi«cn und 
auszuwerten. 

2.2.8 BM-UNIT 

Zum Aufechalten der Operanden und des Ergebnisses auf die ext»nen Bussysleme existicrt eine Busmultiplexeinheit 
(BM-UNTT). Diese besteht aus 2 Multiplexern und 2 IVmc, wobei die 2 Multiplexer fur die Operanden (0-MUX) und 2 20 
Tore fiir das Ergebnis (R-GATE) wtistieren. dabei wird jeweils ein Schalter fur das hoherwertige und niederwertige Er- 
gebnis verwendet. Die Multiplexer und Schalter werden uber das Multiplexerregister (M-PLUREG) gcsteuert. Die Sync- 
UNTT-Signale werden uber die Sdialter auf den Bus gestcuerL Dabei ist die Zusammengdiorigkeit der Muldplexei/ 
Schalter und Signale wie folgt: 

25 

O-MUXl: oRDYl, oACK 
0-MUX2: oRDY2, oACK 
RH-G ATE: rRDY, rACKh 
RL-GATE: rRDY, rACKl. 

30 

Das R-GATE kann uber das M-PLUREG in einen Zustand gebracht werden, in dem es kein Bussystem treibt 
DieTabelle gibt eine Beschreibung der Signale, sowie deren jeweiliger Interface-Stmktun 



Signal 


oRDY 


oACK 


rRDY 


rACK 


D7..0 


zeigt an 


Operanden 
berdt 


Operanden 
quittiert 


Ergebnis 
bereit 


Ergebnis 
quittiert 


Daten 


Typ 


Eingang 


Open-Kollektor 


I^eiber 


Eingang 


Bidirektional 



Es ist moglich mehrere Datenempfanger von eineiri Datensender aus anzusprechen (Broadcasting), ffierzu schalten 40 
sich mehrae Datenempfanger auf daiselben Bus. Um eine Quittimmg der Daten zu gewahrleisten ist die Treiberstufe 
der Quillierungsleitung oACK als Ofifener-KoUektor-Tieiber gestaltet. Dabei arbeitet der Bus als wired- AND, d. h. erst 
wenn alle Datenempfanger quittieren entsteht der fur die Quittierung erforderiiche H-Pegel. Dies wird dadurch erreicht, 
daB jeder Datenempfanger, der NICHT quittiert den Bus iiber einen Open-Kollektor-TVansistor auf einen L-Pegel aeht. 
Datenempfanger die quittieren, steuem den Open-Kollektor-Transistor nicht an und belasten somit den Bus nicht Wenn 45 
alle Datenempfanger quittieren wird der Bus nicht mehr belastet und nimmt iiber einen PuU-Up-Widerstand H-Pegel an. 

2.2.9 StateBack-UNTT 

TAe PAE ist in der Lage Ruckmeldungen uber ihren Betriebszustand an ihre Laddogik, im folgenden PLU genannt, zu 50 
liefem (vgl. DE 44 16 881 Al). Die Laielogik konfiguriert das PA und benotigt, um sinnvoUe Umkonfigurationen yor- 
nehmen zu konnen, Informadonen iiber den Status der einzelnen PAEs, Dies geschieht uber die StateBack-UNTT. Diese 
ubertragt je nach Eintrag im F-PLUREG entweder die unteren 3-Bit des Ergebnisses aus dem R-REGsft - um berechnete 
Werte an die PLU zu liefern - oder die Signale CarryOut- Ales^ und AequalB-Odetect auf einen 3-Bit Stamsbus, Um das 
Aufschalten der Signale von mehreren PAEs aus zu ermoglichen wird ein einfaches wired-OR Verfahren tiber Open-Kol- 55 
lektor-TVeibOT verwendet Damit die Umkonfiguriening der PAE erst beginnt, wenn der Empfanger die Daten quittiert 
hat, kann zwischen den Signalen und den Open-KoUektor-TVeibem eine Latcb-Stufe eingeschleifl werden, die die Si- 
gnale eist nach Eingang des rACK fieigibt. Der Statusbus wird von der PLU iiberwacht. Diese reagiert in ihrem Pro- 
grammfluB und ihrer Umkonfiguration auf den vom Bus gelieferten Status. 

60 

^ZlOPower-UNTT 

Die PAE besitzt einen Stromsparmodus (Slccp-MODE), der ebenso wie die Funktion der EALU im F-PLUREG ein- 
gestellt wird. Hiexfur existierl em Bit, das, wenn es gesetzl ist, den Sleep-MODE einschalteL Hierzu kann entweder die 
T^tleitung der PAE auf konstant logisch 0 oder 1 gesetzt werden, oder uber einen TYansistor die Spannung der PAE ab- 65 
geschaltet werden. Das F-PLUREG steht innerhalb der PAE immer unter Spannung und ist nicht abschaltbar. Fiir die je- 
weils ausgefuhrte Funktion unbenutzte Bereiche (Gatter) der PAE werden durch Auswertung des F-PLUREG abgeschal- 
tel. Dies geschieht iiber einen lYansistor, der die Bereiche von der Spannungsvenoigung trennt Um unerwunschte Stor- 
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einflusse zu verhindem sind die Ausgange der Bereiche iiber PuU-Up/PuU-Down-A^derslande definierl. 

Zusatzlich kann innerhalb des OneShot-MODE, der von der Sync-UNrf gesteuert wird, der PowerSave-MODE ver- 
wendel werden. Dabei werden siuntliche Tfeile der PAE. init Ausnahme von M-PLUREG und Sync-UNTT von der 
Versorgungsspannung getrennt. Erst wenn die Sync-UNTT einen OneShol fesistellt, werden alle benotigten PAErTeile 
5 uber die Power-XJNTT zugeschaltet. Die Sync-UNTT verzogert das TakLsignal so lange, bi s alle neu zugeschalteten Teile 
arbeitsfahig sind. 

Z2.ll Register 

10 Die Register F-PLUREG und M-PLUREG sind mil dem PLU-Bus veibunden. Die Adresse der von der PLU gesende- 
teo Datenpakete werden in cinem Vergleicher dekodiert. 1st die Adresse der PAE erkannt, so werden die Daten in die Re- 
gister gespeichert Der PLU-Bus ist wie folgt gestalteu 

AX7 ... 0: X- Adresse der X/Y-Matrix 
15 AY7 ... 0: Y-Adrcsse der X/Y-Matrix 

RS: Register Select, logisch 0 wahlt F-PLUREG, logisch 1 wahlt M-PLUREG aus, 

AEN: Adress Enable, der Bus enthalt eine giiltige Adresse. Die Adressen mussen dekodiert werden, solange AEN lo- 
gisch 0 ist AEN ist wahiend des gesaiiiten Buszugriffes, also aucb wahrend der Dateniibertragung logisch 0. 
D23 ... 00: Daten 

20 DEN: Data Enable, der Bus enthSlt giiltige Daten. Die Daten mussen bei steigender Fianke des Signals DEN in das Re- 
gister Qbertragen werden 

OEN: Output Enable, die PLU liest giiltige Daten aus den PLUREGs. 

Der Aufbau des F^PLUREG 

25 

1 . Der Registeraufbau bdni Schreibzugrifif 

I Fll I F10..9 I F8 I F7..6 | F6 | F4..0 | 

I Stop 1 Si^ateBack | Sleep | QneShot | PowerSave | EALU function | 



Die Funktionen der einzelnen Bit 

35 



1 F\mktion ] 


Zustand 


Wirkung 


Stop 


0 


Nonnale Ftmktion 


1 


Funktionen nach laufendem Zyklus anhalten, 






keine Quittierung der Operanden 


StateBack 


00 


keine Rilckmeidung, Bus offen 




01 


D2..0 auf Bus 




10 


CarryOufc-AlessB, AequalB-Odetect auf Bus 




11 


illegal 


Sleep 


0 


keine Funktion, spannungslos 




1 . 


nonnale Funktion, Spannung 


OneShot 


00 


normale P\mktion 




01 


OneShot auf oRDYl 




10 


OneShot auf oRDY2 




11 


OneShot auf (r ACKh & rACKl) 


'PowerSave 


0 


kein PowerSave 




1 


Stromspannodus in Verbindung mit OneShot 


EALU fiinction 


00000 


keine Operation (NOP) 




00001 








Rmktion gemSB Ausfuhrung der EALU 




11111 





60 

Der Reset-Zustand ist 0 in alien Bits. 
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2. Der Registeraufbau beim LesezugrifT 



I Fll I 
I ReCtonfig | 



Die Funktionen der einzelnen Bits 



F\inktion 


Zustand 


Wirkimg 


ReConfig 


0 
1 


Keine Umkonfigurierung moglidi 
Umlconfigurienmg mdglich 



Der Reset<Zustand ist 0 in alien Bits. 

Der Aufbau des M-PLUREG 



1 M23..18 


M17..12 


1 Mil. .06 1 M05..00 


1 Ergebnis hdhenvertig 


Ergebnis niederwertig 


1 Operand 1 | Operand 0 



Die Werte M(n+5) . . . n = 000000, n e {0, 6, 12, 18) bedeuten, daB die Multiplexer/Schalter ofifen sind und keinen 
Buskontakt besitzen. Es kann sinnvoil sein, das M-PLUREG iiber das Signal ReConfig zu sperren, d. b. sobald ReConfig 
aktiviert wird, schaltet sich die PAE von alien Bussystemen ab. Der Reset-Zustand ist 0 in alien Bits. 

2.3 Zusammenfassung 

Dutch die Reduzierung der Konfigurationsdaten auf das Register F-PLUREG kann die Funktion des PAE einfacher 
und schncUer konfiguriert und umkonfiguriert werden, als in bekannten Technologien, ins besondere der FPG A-Techno- 
logie. Die Vemetzung des Rechenwerkes wird im M-PLUREG angegeben, wahrend in den herkommlichen Tfechnolo- 
gien einc Vielzabl einzelner, nichl zusammenh^gender Konfigurationsbits besetzt werden miissen. Durch die klare 
Struktur der R^ist» wird eine (Um)Konfiguration veieinfacht 

Der Platzbedarf des PAE ist durch die direkte Ausgestaltung als Rechenweik kleiner als in heikdmmlichen Ibcbnolo- 
gien, in dencn Recbenweiice durch eine Vielzahl von Logikzellcn implemcntiert wuxden. Gldchzeitig sind die Dutch- 
laufverzdgerungen geringen und die erzielbaren l^ktfrequenzen entsprcchend hdher. 

Eine Broadcasting-Funktion ist durch die Ausgestaltung der BM-UNTT gcwShricistet, die Quittierung erfolgt automa- 
tisch. Durch die ein- und ausgangssdtigen Register (O-REG, R-REG) ist dn zdtlicb weitgehend unabhangiger Daten- 
transfa* gewahrldsteL 

Die Konfiguration und UmkonfiguraticMi wird duich die Entkopplung jeder PAE vom Gesamtsystem iiber die Register 
O-REG und R-REG erfieblich vereinfachl, da die einzelnen PAEs weitgehend voneinandcr unabhangig sind. Die Riick- 
meldungen an die PLU, sowie das Zusanunenspiel von STOP und ReConfig ermoglichen die effiziente Steuerung der 
(Um)Konfigurationen. 

Es sind Stromspaifiinktionen implementiert, die - teilwdse automatisch (OneShot-MODE) - zu einer Reduzierung 
des Leistungsvetbrauches fiihren. 

Die PAE-Struktur kann zur Etfaohung der Effizienz von FPGAs in deren ArchitekOir implemratiert werden. Dadurdi 
sind arithmetische Opeiadonen nheblich leistungsfahigo' realiaerbat 

3. Kurzbeschreibung der Diagramme 

Rg. 1 Anordnung mchrerer PAEs zu eincm PA mil PLU. Ohne >ferbindung zu Ein-/Ausgabesystemen oder Speicher 

Fig. 2 Aufbau einer PAE. 

Fig. 3 Aufbau von F-PLUREG und M-PLUREG. 

Fig. 4 Aufbau eines O-REG. 

Fig. 5 Aufbau eines O-REGsfl mit recbtsschiebe-Funktion. 

Fig. 6 Aufbau eines R-REGsft mit rechts/links l-2bit Banel-Shifter. 

Fig. 7 Aufbau des R20-MUX, sowie Implementierung eines MUX in TVansfer-Gate-Techmk. 

Fig. 8 Taktsynchronisation, \ferz6gerungen und synchron Signale 

Fig. 9 Funktionsweise der Sync-UNTT. Beschreibung. 

Fig. 10 Aufbau der Pow«r-UNIT 

Fig. 1 1 Aufbau der Sync-UNTT 

Fig. 12 Aufbau der BM-UNTT 

Fig. 13 Aufbau eines O-MUX, begrenzt auf 4 Bussysteme 
Fig. 14 Aufbau eines R-GATE, begrenzt auf 4 Bussysteme 
Fig. 15 Aufbau der StateBack-UNTT 
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Fig. 16 Funktionsprinzip des OneShot- und OneShot/PowerSave-MODR 

4. Detailbeschreibung der Diagraiuine 

Fig. 1 stelU einen vereinfachten Prozcssor gemaB DE 44 16 881 Al dar. Zudem ist die PLU (0101) und deren Bussy- 
stem (0102) angezeigt Die PAEs (0103) sind als Airay eingetragen, das chipinteme Bussystem (0104) ist schematiscb 
dargestellt. 

Fig. 2 zeigl den schematisierten Aufbau einer PAE. Das chipinteme Bussystem (0201) wird an die BM-UNTT (0202) 
gcfuhrt, welche die durch M-REG (0203) ausgewahlten Busse an das OREGlsft (0204) als Operand 1 und das OREG 
(0205) als Operand 2 weiterschaltet In den Datrapfad von Operand 2 wird iiber den R20MUX (0206) das im Ergeb- 
nisregisier R-REGsft (0207) stehende Ergebnis wahlweise eingeschleift. Die Daten aus O-REGsfl (0204) und R20 
MUX (0206) werden im ElAU (0208) verarbeitet tJber die StateBack-UNIT (0209) finden Ruckmeldungen an die PLU 
statt. Der PLU-Bus (0210) hat Verbindung zu den Registem F-PLUREG (0211) undM-PLUREG (0212), sowie derSta- 
teBack-UNTT (0209). Uber ihn wird die PAE konfiguriert und ubcrwacht Das F-PLUREG enthalt alle funklioneUen 
Konfigurationsdaten, das M-PLUREG enlhalt die Vemetzungsinfonnalion der PAE. Die Sync-UNTT (0212), steucrt das 
Zusammenspiel des Datenaustausches zwischen den Datensendem, den Datenempfangem und der Vbrarbeitungs-PAE. 
Die SM-UNrr (0213) sleuert den gesamten internen Ablauf der PAE. Die Power-UNTT (0214) regclt die Stromversor- 
gung und dient der Reduzierung des Slromverbrauches. 

In Fig. 3 wird die Funktionswdse der Register M-PLUREG und F-PLUREG vendeutlicht. Die Adressen AX und AY 
des PLU-Bus (0308) werden in einem Vergleicher (0301) mit der Adresse der PAE verglichen, sofem AEN (Adress En- 
able) einen gUltigen Bustiansfer anzdgt Dabei besitzt jede B^£ eine eindeutige Adresse, die sich aus ihrer Spalte und 
Zeile innerhalb einer PA zusammensetzt Zeigt DEN (DataEnable) die Dateniibertiagung an, so wird uber RS (Register- 
Select) entweder M-PLUREG (0302) odcr F-PLUREG (0303) ausgewShlt Bd der stcigendcn Hanke von DEN werden 
die Daten im b^effenden Register gespeichert. Die Register sind als D-FlipRop (0304) impIemendeiL Zur >%tdeutli- 
chung des Ablaufes dient das ISmingdiagramm 0305. Zuin lesenden Zugri£f auf das F^FLUREG wird lediglicb iiber das 
Tor (0306) das Signal ReO)nfig von der Sync-UNTT an den PLU-Bus gegeben. Die Frdgabe geschiebt Ober das Eigebnis 
des Vergleichers (0301) UND dem Signal GEN. 

Fig. 4a zeigt das Blockdiagramm des O-REG. In Fig. 4b ist der Aufbau des O-REG aus D-FlipFlops ersichtlich. Das 
Timingdiagramm ist in Fig. 4c dargestellt Der Takt wird von der SYNC-SM generiert. 

Fig. 5a zeigt das Blockdiagramm des 0-REGsft. In Fig. 5b ist der Aufbau des O-REGsft aus D-FlipFlops (0501) er- 
sichtlich. Die UND-Gatter (0502) und das OR-Gatter (0503) bildcn uber den Inverter (0504) einen durdi Mode gestcu- 
erten Multiplexer (0506). der entweder die Eingangsdalen auf die D-FIipFlop (0501) schaltet, oder die Ausgangsdaten 
der D-FlipFlop um ein Bit verschoben an deren Eingang leiteL Das UND-Gatter (0505) ist nicht notwendig, da ein Bin- 
gang permanent auf iQgisch 0 liegt £s dient nur der Anscbaulichkeit. In Fig. 5c ist das 'nmingdiagramm in Abhangigkeit 
von dem Signal Mode angegeben. Der T^kt wird von der SYNC-SM generiert 

Fig. 6a zeigt den Blockaufbau des R-R£Gsft vor dem Register (0601) liegt ein Multiplexer (0602), der entweder die 
Eingangsdalen auf das Register (0601) schaltet, oder die Ausgangsdaten des Registers (fkOl) verschoben an dessen Ein- 
gang leitet Der von der SYNC-SM generierte Tdct wird um einen Halbtakt verschoben an das Register gefuhrt. In Fig. 
6b ist das Blockdiagramm auf Gatterebene daigestellt Ober einen Dekoder (0603) schalten ModcO-2 einen aus UND- 
Gattem mit nachgeschaltetem ODER-Gatter bestehenden Multiplexer (0606). Dabei dnd die gestrichelteingezeichneten 
Gatter (0605 und weitere) nur der Verdeutlichung weg^ eingezeichnet Sie sind funktionslos, da ein Hngang stSndig auf 
L liegt. Der Multiplexer schaltet im Zustand ModeO-2 = 010 das Eingangssignal auf die Register (0607). In den Zustan- 
den ModeO-2 = 000 bis ModeO-2 = 001 werden die Ausgangswerte der Register (0607) nacb links, in den Zustanden 
ModeO-2 = 01 1 bis ModeO-2 = 100 rechts. um ein bzw. zwei Bit verschoben, an die Eingange der Register gefuhrt Die 
Schdbefiinktion wird in Abhangigkeit vom Zustand ModeO-2 im Timingdiagramm Fig. 6c verdeutlicbt 

Fig. 7a zeigt den Aufbau des Multiplexers R20-MUX, der in Abhangigkeit von Mode die Operanden oder das Eigeb- 
nis an die EALU weiterldtet Dabd ist Fig. 7a als herkommllcher Multiplexer aufgebaut, wahrend in Fig, 7b die platz- 
und leistungssparende Variante durch die Verwendung von CMOS TVansfer-Gates (0701) aufgezeigt wird. Alle in dieser 
Schrift beschriebenen beschriebenen Multiplexer konnen miuels IVansfer-Gates aufgebaut werden. 

Bin Tor kann aquivalent zum Multiplexer aus IVansfer-Gales aufgebaut werdra. Dabei ist jedoch die Ricbtung des Dar 
tenaustausches genau umgekehrt! 

Fig. 8 zeigt das Verfaaltms des I^E-intemen Taktes (XK zu den stattfindenden Aktivitaten. Bei der steigenden Flanke 
(0801) werden die Operanden in die O-REG gespachert. Wahrend des H-Pegels (0802) v»arbeitet die PAE die Daten (A 
PAE = Verarbeitungsphase). Das umfaBt den Datenverkehr zwischen den O-REG und dem R-REG. Bei der fallenden 
Flanke (0803) wird das Ergebnis im R-REG gespeichert Der L-Pegel (0804) wird fur die Verteilung der im Bussystem, 
eingeschlossen der BM-UNTT genutzt (A Network = Busphase). Der zeitliche Ablauf der von der SYNC-SM generierten 
Signale (oRDY und oA(X, rRDY und rACK) ist in das Zeitdiagramm eingeu^gen. 

Das Ablaufdiagramm der Sync-UNTT ist in Fig. 9 dargestellt Die Zustandsmaschine kennt zwei feste Zustande DA- 
TEN (0901) und ERGEBNIS (0902). DATEN wird auf die steigende Flanke synchronisiert, ERGEBNIS auf die Fal- 
lende. Dabei wird jeweils der Zustand der Eingangsparameter ausgewertet und je nach lagebnis in den Zweig ja 
(09O3A)9O4) Oder nein (0905/0906) gesprungen. Sind in DATEN die Operanden nicht bereit, wird ncin angesprungen. In 
den nachsten Schritten wird keine Operation ausgefuhrt, bis die Maschine nach DATEN zuruckspringt und »neut aus- 
wertet. Steben nun Operanden, angezeigt durch oRDY, bereit, werden die Operanden im O-REG (0907) gespeichert. Die 
Operanden werden verarbeitet (0908) und gleichzeitig wird ausgewertet (0909), ob es sich bei mehrzyklischra Operatio- 
nen (serielle Operational, die mehr als einen Tbktzyklus benotigen), um den letzte Zyklus handelt oder ob eine einzy- 
klische Operation ablauft. In diesen Fallen werden die Operanden durch oACK quitlierl (0910). Mit der fallenden Flanke 
wird ER(jEBNIS synchronisiert Dabei wird ubeipruft ob das Flag '*Efgebnis vOThand«i" gesetzt ist (0911). Dieses Flag 
wird immer gesetzt, wenn ein ferdges Ecgebnis durch rRDY signalisiert wird (0912). 
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In zwei Fallen wild in den JA-Zweig (0904) gcsprungen: 

- Es isl kcin vorbergehendes Ergebnis vorhanden (Flag "Ergebnis vorhanden" unwahr). 

- £s ist ein vorbergehendes Ergebnis vorhanden (Flag "Ergebnis vorhanden" wahr) und dieses ist mil rACK quil- 
tierL In diesem Fall (und nur in diesem Fall(!)) setzt 0902 das Ergebnis zuruck (091 3). 5 

Ansonslen wird in den NEIN-Zweig (0906) gespningwi und kdne Operation ausgefuhrt, bis die Zuslandsmaschine 
nach ERGEBNIS (0902) zunickkehn. Im JA-Zweig (0904) wird das Ergebnis in das Ausgangsregisler R-REGsfl gcspd- 
chert (0914). Danach wird ausgewertet ob es sich um den ietzten Zyldus einer mebrzykliscben Operation handell (0915) 
(vgl. 0909) Oder ob eine einzyklische Operation ablauft, wenn ja, wird das \brhandensein des Ergebnisses durch rRDY 10 
signalisiert (091 6). Die Zustandsmaschine springl nach DATEN (0901) zuruck. Die Erkennung ob es sich um den Ietzten 
Zyklus einer Operation - oder um eine einzyklische Operation - handelt kann uber das Signal FINISH (0916) von der 
SM-UNTT abgefragt werden. Dieses isl aktiv, wenn der letzle - oder einzige - Zyklus stattfindel. Der SM-UNTT wu-d der 
Zusland der SYNC-UNIT uber RUN (0917) signalisiert RUN isl im Falle, daB eine Operation stattfindel aktiv, andem- 
falls inakliv. Der Mechanismus des STOP-Eintrages im F-PLUREG und des daraus generierten ReConfig ist in Fig. 9 15 
nicht dargestellt, da der Ablauf trivial ist und aus der Beschreibung der SYNC-UNTT hervorgeht 

Fig. 10 zeigt den prinzipiellen Aufbau der Power-UNTf. Das Signal Sleep wird von F-PLUREG auf einen Transistor 
oder eine Transistorstufe (1001) geleiteL Diese steuerl die Spannungsversorgung fur alle abschaltbaren Zellfunklionen. 
Die Sync-UNTT liefert das OneShotPowerSave-Signal (vgl. Fig. 16), iiber welches die Spannungsversorgung der restli- 
chen ZellfunktionQD durch einen TVansistor oder eine TVansistorstufc (1002) freigegeben wird. Abhangig von den tat- 20 
sachlich vowendeten Funktionen in da Zelle, schalten die Transitoren oder TVansistorstufen (1003) die nicht benotigten 
Funktionen ab (PowerDown). Verstandlich ist, daB fiir ordentliche Spannungsversorgung und EMV-Verhalten weitere 
entsprechende Vorkehrungen, wie Kondensatoren etc., getroffen werden miissen. 

Fig. 1 1 zeigl die Implementierung der Maschine aus Fig. 9 in das Konzept tJber die BM-UNTT (1101) werden die Si- 
gnale oRDY( 1/2) und rACK (vereinf achl dargesteUt: tatsachlich existiert rACKh und rACKl, rACK = rACKl & rACKh) 25 
zu den C(XK-gesteuerten Latches (1102) geschaltel, Dabei sind die Latch so geschaltel, daB sie in der I^Phase (Bus- 
phase) von CCLK transparent sind und in der H-Phase (Verarbcitungsphase) den Zustand halten. Die Ausgange der 
Latch stellen die Signale fur die Sync-StateMachine (1103) zur Verfugung. rRDY (vereinfacht dargestellt: taUachlich 
existiert rRDYh und rRDYl, diese sind vollkommen gleich, werden jedoch an verschiedene Empfanger geleitet) von 
(1103) wird uber Tor auf den Bus geschalteL Die Signale oACK(l/2) von (1103) werden in der BM-UNTT (1101) negiert 30 
und an die wiederum invertierenden Open-Kolleklor-Busireiber (1104) geliefert Der Bus wird iiber Widerstande (1105) 
auf H gezogen. Die BNI-UNTT ist dabei geschaltet, daB folgende Falle cinlreten: 

1. Wird der entsprechende Bus von der BM-UNTT nicht angesteuert, licgt an der Basis der llransistorcn (1104) L 

an. Dadurch belasten sie den Bus nicht 35 

2. Wird der entsprechende Bus von der BM-UNTP angesteuert, und das Signal nicht quittiert, liegt an der Basis der 
Transistoren (1104) H an. Das bedeutel, daB der Bus auf L gezogen wird. Wird ein Ergebnis per Broadcasting an 
mehrere Dalenempfanger verteilt, so Ziehen alle PAEs, die die Ergebnisdalen noch nicht quittiert habcn und Warte- 
Zyklen benotigen den Bus auf L. 

3. Wild der entsprechende Bus von der BM-UNTT angesteuert, und das Signal quittiert, liegt an der Basis der Ttan- 40 
sistoren (1104) L an. Das bedeutel, daB der Bus nicht belastet wird. Wird ein Ergebnis per Broadcasting an mehrere 
Dalenempfanger verteilt, so belasten alle PAEs, die die Ergebnisdalen quittiert haben und keine Warle-Zyklen be- 
notigen den Bus nicht. 

Da der Bus in seinem Grundzusland den H-Pegel, also die (Juittierung einnimml ubersteuert die Nichtquittierung ge- 45 
maB Fail 2 die (Juittierung, in dem sie den Bus auf L zieht Dabei geht der Bus erst dann in den H-Pegel, also in den (Juit- 
tierungszustand, wenn alle PAEs quittieien. Es ist somit eine Wred-AND-Schaltung realisiert. Die Sync-StateMachine 
stellt das Signal RUN (1107) dear SM-UNTT (llOQ zur Verfiigung. Diese ISufl aufgrund von RUN an. Befindet sich die 
SM-UNTT im Ietzten - oder einzigen - ZYklus einer Aferaibeitung, so signalisiert sie dies uber FINISH (1108) an die 
Sync-StateMachine. FINISH wird in den Auswerteeinheiten zur Erkennung des Ietzten Zyklus (0907, 09 1 5) ausgewertet. 50 
Die SM-UNIT ISuft synchxon zum PAE-intemen TMa CLK 

Fig. 12 zdgt deo Aufbau der BM-UNTT. Abhangig von den Eintragen in das M-FLUREG schalten die Multiplexer 
(1201,1202) die 0|)eranden vom intemen Bus (1203) zu den O-REG. Ebenfalls schalten die Ibre (1204, 1205) die untere 
und obere HSlfte des Ergebnisses auf den Bus. Der Multiplexer 1206 schaltet die oRDY(l/2) gemaB der Stellung von 
1201 und 1202 und cACK gemSB der Stellung von 1204 und 1205 vom Bus in die PAE. Dabei werden die rACK beider 
Dalenempfanger miteinander verUNDet Existiert nur ein DatenempfSngei; so ist der Multiplexer so geschaltel, dafi er 
slatt des fehlraden rACK eine logische 1 zurOckgibL 1207 bdnbaltet ein Gate zum Aufschallen dex Signale qACK(1/2) 
und rRDY auf den Bus. Dabd werden die Signale oAC!K(l^) zun^chst invertiert und dann Uber C^-KoUeklor-lYeiber 
(1104) auf den Bus geschaltet 

Fig. 13 verdeulHcht (ten Aufbau eines 0-MUX. Dabd existiert dn 3 : 5 Dekoder (1301) zum Auswerten der 
Modc2. .0 Signale aus dem M-PLUREG. Der Multiplexer ist uber UND-CJaller (1302) mil nachgeschaltctem ODER- 
Gattcr (1303) aufgebaut Das Auswertcsignal von Mode2 ... 0 = 000 des Dekoders (1301) ist dabd dirckl auf die 
ODER-Galter geschaltcA (1304). Das bewirkl, daB in ofifenem Zustand, d. h. keine Verbindung zu dnem Bussyslem, im- 
mer logisch 1 zuriidtgeliefert wird. (Vgl mil Fig. 12 rACK). Zur V&rcinfachung ist nur eine reduzierle BusgrdBe dazger- 
slcUL 

In Fig. 14 ist der Aufbau eines R-GATE dargestellL Dabei existiert dn 3 : 4 Dekoder (1401) zum Auswerten der 
Mode2 ... 0 Signale aus dem M-PLUREG. Das Ausw^lesignal von Mode2 . . . 0 = (KX) des Dekoders wird nicht vcr- 
wendet Dadurch wird keine Busveibindung bei dieser Bit-Kombination beigesteiiL Die Gates (1402) and enlweder 
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dutch UND-Gatter oder Transmisson-Gates (vgl. 0701) aufgebaut. Dabei ist eine Verslaricerstufe zum TVeiben der Bus- 
last vor- Oder nachgeschalteL Zur Vereinfachung ist nur eine reduzierte BusgroBe daigestellt. 

Die SlateBack-UNTT ist in Fig. 15 dargeslellL GemaB der KnsteUung iin M-PLUREG schallel ein Multiplexer (1501) 
enlweder die Signale CarryOul- AlessB, AequalB-Odetecl von der EALU oder die Ausgange des R-REG R-RE(5D2 ... 0 

5 durch. Die Signale gelangen an eine Open-Kollektor-Transistor-Stufe (1502) und werden auf den PLU-Bus geschaltet. 
Dabei benotigt der PLU-Bus exterae, nahe der PLU positionierte PuU-Up-Widentande (1503). Das Latch 1504 ist optio- 
nal. Wild es in die Ausgangssignale von 1501 eingeschleifl, werden diese erst auf den Bus (1503) geschaltet, nachdem 
der Datcnempanger die Datcn uber rACK quitlicrt hat. Dadurch wird bewirkt daB die Bereitschaft zur Umkonfigurie- 
rung Obcr die Statussignale erst angezeigt wird, wenn die Daten auch angenommen wurden. Normaletweise wird dies 

10 durch das Zusammenspiel von STOP und ReConfig in der Sync-UNIT geregell; daher ist das Latch opUonal. Das rACK 
wild dabei als Latch-Takt verwendet. Dabei ist das Latch bd rACK = 1 transparent und speichert bei rACK = 0. 
Fig. 16 veidcudichl die Funktionsweise des OneShot-MODE. Ober einen Multiplexer (1601) scbalten die Signale 

- Vcc 

15 - oRDYl 

- oRDY2 

- (oRDYl & rACK) 

abhangig von der EinsteUung im F-PLUREG den Zell-mt fird. Dabd bewirkt die Freischaltung uber Vcc, daB der Thkt 
20 immer lauft (siehe Timing-Diagramm "Normaler Btetiieb"). In den 3 iibrigcn Modi lauft der TMct raret an, wenn die Si- 
gnale, Oder Signalkombinationen den Takl freigeben. Die Freigabe wird durch ein Latch (1602) auf den Takt CCLK syn- 
chronisiert, damit die Phase nicht voraeitig abbricht, wenn das Freigabesignal zu kurz isL Dabei ist das Latch in der L- 
Phase von CCLK transparent und halt den Wert in der H-Phase. Das Freigabesignal gelangt auf das UND-Gatter-Paar 
(1603 und 1604), das den Takt freigibl. IJber einen Inverts (1605) wird das invertialc lyctsignal !CLK erzeugt, CLK 
25 lauft urn die Phasengleichheit zu gewahrleislen durch ein Vazogo-ungsglied (1606) (siehe Timing-Diagrainm "One-Shot 
Betrieb"). Dabei wird CCLK in der Zuleitung zu 1604 uber zwd Verzogerungszeitungen (1610) verzogert um Phasen- 
gleichheit zum an 1603 anliegenden CCLK, das durch den Multiplexer (1608) verzogert wurde, zu gewahrleislen. Wird 
eine PAE in den PowerSave-Mode gebracht, wird die Versorgungsspannung der Zelle weitgehend ausgeschaltet. Dies 
geschiehl uber das ODER-CJalter 1611. Ist der PowerSave-MODE eingeschaltet, d. h. PowerSave = 1. fiihrt das negierte 
30 Signal L. Ist zudem der OneShot-MODE eingeschallet und das Register 1602 auf L, wird iiber das OneSbotPowerSave- 
Signal der Spannungsversorgungstransistor in der Power-LJNTT (vgl. Fig. 17) abgeschalteL Steht das Register 1602 je- 
doch auf logisch 1 (oder PowerSave = 0), wird der Spannungsversorgungstransistor iiber 1611 eingcschalteL Die fol- 
gende TabeUe gibt einen Uberblick uber die Funktion: 



PowerSave 


Latch (1602) 


Spannung 


Bemerkung 


L 


X 


an 




H 


L 


aus 


nur wenn OneShot- 
MODE gesetzt! 


K 


K 


an 





Beiin Einschalten der Versorgungsspannung enlsteht eine zeitlich besdmnile Aufwachzeit, bis die Zelle arbeilsfahig 
ist. Um dennoch ordentlich zu funktionierra, mussen die Signale entsprechend verzogert werden. Hierzu wird CCLK 
iiber eine Verzogerungsleitung (1607) geleitet Ein Multiplexer (1608) wahll entsprechend dem Signal PowerSave aus F- 
45 PLUREG aus, ob der normaie oder verzogerte mt an die Zelle geleitet wird. Verzogert wird nur der nicht invertieale 
Takt um den Zeilraum APowerOn, der invertierte Takt wird nicht verzogext Dadurch steht das Ergebnis synchron zu dea 
restlichen Bausteinfunkdonen zur Veifiigung. Dadurch verringert sich die nutzbare Verarbeitungszeit auf Aprocess. Die 
maximale Ibktfrequenz des Bausleines hangt somit von 2 = APowerOn + Aprocess ab (siehe Unung-Diagramm "OneS- 
hot Betrieb mit PowerSave"). 

50 

5. Begriffsdefinition 

AequaiB-Odetect* Durch die EALU generiertes Signal, das bei arithmetischen Operationen anzeigt, daB das Eigebnis 
gleich null ist, Bei Vergleichen wird angezeigt, daB Operand A gleich Operand B isL 
55 ALU: Arithmetisch logische Enheit. Grundeinheit zum Verarbeiten von Daleo. Die Einheit kann arithmetische Ope- 
rationen wie Addition, Subtraktion, unter Umstanden auch Multiplikation, Division, Reihenentwicklungen usw. durch- 
fuhren. Dabei kann die Einheit als ganzzahlige (integer) Einheit oder als FlieBkomma-(floating-point)-Einhcil gcstaltet 
sein. Ebaifalls kann die Einheit logisdie Operationen, wie UND, ODER, sowie Vfergleiche durchfuhren. 

BM-UNTT: Einheit zum Aufschalten der Daten auf die Bussysteme auBerhalb der PAE. Das Aufschalten geschiehl 
60 iiber Multiplexer fur die Dateneingange und Tore fur die Datenausgange. oACK-Leitungen sind als Open-KoUektor- 
Treiber implementiert. Die BM-UNTT wird durch das N^PLUREG gesteuert 
Broadcast: Senden von Daten einer PAE an mehrere Datenempfangen 

CarryOut-AlessB: Durch die EALU graeriertes Signal, das bei arithmetischen Operationen dnen fibertrag anzeigt 
Bei Vergleicbeo wird angezeigt, daB Operand A kleiner als Operand B ist 
65 Datenempfangen Die Einheit(en), die Ergebnisse der PAE weiterverarbeitetZ-aibeiten. 

Dalensender: Die Einheit(en), die Daten fiir die PAE als Operanden zur Verfiigung stellt/stellen. 

D-FlipFlop: Speichwelemenl, welches ein Signal bei der steigendoi Flanke eines TVktes speichert. 

EALU: Erwaterte arithmetisch logische Einheit ALU, die um Sonderfunktion«), die zum Betrieb einer Datenverar- 
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bdtungseinrichlung gemaB DE 44 1 1 6 88 1 A 1 benotigl werden oder sinn voll sind erwcitert wuidc. Dies sind ins beson- 
dere 2^1er. 

FPGA: Prograiiunierbarer Logikbauslein. Stand derTechnik. 

F^PLUREG: Register in dem die Funktion der PAE gesetzt wild. Ebenfalls wird der OneShol- und Sleep-Mode ge- 
setzL Das Register wird von der PLU beschrieben. 5 

Gatter Gruppe von Transistoren, die dne logische Grundfunktion durchfuhren. Grundfunktionen sind z.B. NAND, 
NOR, Transmission-Gales. 

H-Pegel: Logisch 1 Pegel, abhangig von der verwendeten Tfechnologie. 

Handshake: SignalprotokoU, bei dem ein Signal A einen Zustand anzeigt und ein anderes Signal B bestaiigl, daB es Si- 
gnal A akzcpderl und darauf, reagial (hat). 1*> 

Konfigurieren: Bestimmen der Funktion und Vemetzung einer logischen Einheit, einer 0^ A)-ZeUe oder einer PAE 
(vgl. umkonfigurieren). 

Latch: Speicherelement, das ein Signal fiir gewohnlich wahrend des H-Pegels transparent weiterleitet und wahrend 
des L-Pegels speichert In PAEs werden teilweise Latches gebraucht, bei denen die Funkdon der Pegel genau umgekehrt 
ist. Hierbei wird vor den Takt eincs ublichen Latch ein Inverter geschaltet. 15 

L-Pegel: Logisch 0 Pegel, abhangig von der verwendeten Tfechnologie. 

M-PLUREG: Register in dem die Vemetzung der PAE gesetzt wird. Das Register wird von der PLU beschrieben. 
Next-Neighbour Vemetzung: Vemetzung der Bussysteme mil den an den Kanten anstoBenden Nachbam. 
OMUX: Multiplexer innerhalb der BM-UNTT, der das Bussystem der Operanden auswahlt 

OneSbot: Modus in dem eine PAE mit einem geringeren als dem Prozessortakl ^trbcitet. Der Thkt ist synchron zum 20 
Piozessortakt und entspiicht einer Periode. Eine Phasenverschiebung existiert nicht Der Tbkt wird fiber eines der Signale 
oRDY(l/2) Oder rRDY freigcgeben. Dieser Modus dient der Stromeinsparung, wenn die Datensender oder -empfangcr 
langsamer als der Prozessortakt Dalen senden oder empf angen. 

Qpeo-KoUektor: Schaltungstechnik, bei der der KoUektor eines Transistors an einem, uber einen PuUup auf den H-Pe- 
gel gezogenen, Bussignal liegU Der Eiiiiller der Transistors liegt auf Masse. Schaltet der TVansistor, so wild das Bussi- 25 
gnal auf den LrPegel gezogen. \fertcil des Verfahrens ist, daB eine Mehrzahl solcher TVansistoren den Bus ohne elektri- 
sche Kollision steuera konnen. Dabei sind die Signale ODER-verkiipft, es entstcht das sog. wircd-OR. 

OREG: Operandenregister zur Speicherung der Operanden der EALU. Ermdglicht die zeitliche und funktionelle Un- 
abhangigkeit da: PAE von den Datensendem. Dadurch wird dw Ttensfer der Dalen .vereinfacht, da er asynchron oder pa- 
ketorientiert stattfinden kann. Gleicbzeitig wild die Moglichkdt geschafiFen die Datensender unabhangig von der PAE 30 
Oder die PAE unabhangig von den Datensendem umzukonfigurieren. 

O-REGsft: O-REG mit durch SM-UNTT gesteuertem Schieberegistcr. 

PA: Processing Array: Array aus PAEs. 

PAR Processing Array Element: EALU mit O-REG. R-REG. R20-MUX, F-PLUREG, M-PLUREG, BM-, SM-, 
Sync-, StateBack- und Power-UNIX 35 

PLU: Einbeit zum Konfigurieren und Umkonfigurimn d«r PAE. Ausgestaitet durch einen speziell an seine Aufgabe 
angepaSten Mikrokcmtioller. 

PowerSave-MODB: Stiomsparmodus Modus innerhalb des OneShot-MODR WShrend keine Operation ausgef&hrt 
wild wcidcn alle Teile der PAE mit Ausnahme des M-PLUREG und Sync-UNTT nicht mit Spannung versoigt 
Power-UNTT: Einhat die die Stromsparfunkti<Hien rcgelt. 40 
PullDowm "Widerstand, der eine Busleitung auf einen L-Pegel zieht 
PullUp: Wderstand, der eine Busleitung auf einen H-Pegel ziehL 

R-GATE: Schalter innerhalb der BM-UNTT, der das Ergebnis auf das cntsprechende Bussystem aufschaltet. Dabei 
sind einige Signal uber als Open-KoUektor-Treiber aufgeschaltet Das R-GATE arbeitet als Bustreiber und kann in einen 
busneutralen Modus gehen. 

R20MUX: Multiplexer zum Einschleifen des Ergebnisses in einem R-REG-sft in dea Dalenpfed zwischen O-REG 
und EALU. 

R-REGsft: Ergebnisregister zur Speicherung des Ergebnis der EALU. Ermdglicht die zeitliche und funktionelle Un- 
abhangigkeit der PAE von den Datenempfangero. Dadurch wird der Transfer der Dalen vereinfiacht, da er asynchron oder 
paketoriwitiert stattfinden kann. Gleichzeitig wild die Mdglichkeit gescbafifen die Datenempfanger unabhangig vender 50 
PAE Oder die PAE unabhangig von den Datenempfangem umzukonfigurieren. Das Register ist mit cin» Schiebfunkdon 
versehen, die von der SM-UNTT gesteuert wird. 

serielle Operationen: Operadonen, die durch serielles Abarbeiten eines Datenwortes oder eines Algorithmus durchge- 
fiihrt weiden. Serielle Multiplikation, serielle Division, Reihenentwicklung 

Sleep-MODE: Stromsparmodus in dem die PAE mit Ausnahme von F-PLUREG <Ane Spannung ist 55 
SM-UNTT. StateMachine-UNTT. Zuslandsmaschine, die die EALU stcucit 

StaleBack-UNTT^ Einheit, die die Ruckmeldung der Statussignale an die PLU steuert Bestehend aus dnem Multiple- 
XCT und einer Open-KoUektor-Bustreibersttife 

Sync-UNTT. Einheit, die die Synchronisation der PAE mit den Datensendem und -empf^gem ubemimml, sowic das 
Umkonfigurieren von PAEs iiberwacht Gleichzeitig werden die OneShot-Funkdonen Gbemommen. 60 

Tor: Schalter, der ein Signal weiterleitet oder sperrL Einfacher \fergleich: Relais 
UmkonfiguriCTen: Neues Konfigurieren von einer beliebigen Menge von PAEs wahrend eine beliebige Restmenge von 
PAEs ihre eigenen Fimktionen fortseizen (vgl. konfiguriCTcn). 

Zuslandsmaschine: Logik, die diversen Zustanden annehmen kann. Die tJbeigange zwischen den Zustanden sind von 
va^hiedenen Eingangsparametem abhangig. Diese Maschinen werden zur Steuening komplexer Funkticmen eingesetzt 65 
und entsprechen dem Stand der Ibchnik. 
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6. Konventionen 



6.1 Nauienskonvention 



5 Baugruppe: -UNIT 

Belricbsart: -MODE 

Multiplexer: -MUX 

Negiertes Signal: not- 

Regisler fiir PLU sichtban -PLUREG 
10 Register intern: -REG 

Schieberegisters: -sft 

6.2 Funktionskonvention 



15 Schiebexegisten sft 
UND-Funktion: & 
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50 

P^tentanspriiche 

1. Konfigurierbare und zur Laufeeit umkonfigurierbare Einheit zur >ferarbeitung von numerischen und logiscben 
Operationen (PAE), zum Ensatz in Pirozessorcn (CPUs), Mehrrechnorsystemen. Datenflufiprozcssoren (DFPfe), Di- 
ss gitalen Signal Prozessoren (DSPs), systoliscben Prozessoren und {MOgrammierbaren Logikbaustdnen (FPGAs), ge- 
steuert von einer Ladelogik (PLIO, dadurch gekcniweSchn c t, daB 

1. dne programmierbare Rechencinheit (EALU) zur DurchfQhnmg dcr mathematiscben und logischen 
Gnindfunktionen besteht, 

2. die Funktion und VCTnetzung der Recbeneinbeit in Register programniiert wird und eine Melzahl von Dar 
60 ten, ohne Umprogrammierung der PAE, verarbeitet weiden kann, 

3. zur Stcuerung der Rechencinheit (EALU) cine Zuslandsmaschine (SM-UNTT) exislicrt, 

4. Register fur jeden Operanden (0-REG) und das Eigebnis (R-REG) bestehen, w6b« die Register teilweise 
als Scbeiberegister ausgefiihrt werden konnen, 

5. eine RUddcopplung der Daten des Ergebnisregisters auf cinen Eingang der EALU uber cincn Multiplexer 
65 (R20-MUX) besteht. 

6. eine Buseinheit (BM-UNIT) den Abgriff der Daten von einem Bussystcm ennoglicht bzw. das Enspeisen 
des Ergebnisses auf ein Bussystem, wobei die Buseinhdt Daten an mchiere Emf^gex vmenden kann und 
die Synchionisierung auch mehrcrcr Empfanger automatiscb edblgt. 



12 



DE 196 51 075 A 1 



7. dci Buszugriff von der Datenveraibeitung in der EALU fiber die Register enlkoppelt ist und somit jede PAE 
als unabhangige Einheit betrachlet werden kann, ins besondere die Konfiguration und Umkonfiguration eine 
PAE keinen storenden EinfiuB auf die Datensender und -empfanger, sowie die unabhangigen PAEs hat, 

8. d» Ablauf der Buslransfers uber eine Zuslandsmaschine (SYNC-UNIT) automatisch gesteueit wild und 
dafiir die Handshake-Leitungen oKDY, oACK, rRDY und rACK zur Verfiigung stehen, 

9. Ruckmeldungen an die PLU zur Erkcnnung des Zustandes dex ^%IaIbeitung und der Umkonfigurierbarkdt 
der PAE erfolgen (StateBack-UNTT). 

2. Einheit nach Anspruch 1. dadurch gekennzeichnet, daB die Datenverarbeitung einer PAE angehalten werden 
kann (Eintrag STOP in F-PLUREG) und die PAE daraufhin nach VoUendung der gorade laufenden Datenverarbei- 
tung ihre BereitscbafL zur Umkonfiguration anzeigt (ReConfig). 

3. iMnheit nach Anspruch U dadurch gdcennzeichnet, daB Stromsparmodi existiexen, 

- in welchen die PAE immer nur dann aifoeitet, wenn Operanden vom Datensender am Eingang bereitstehen 
und das Etgebnis bereits vom Emp^ger angenommen wurde, und die B\E ansonsten ohne Taki stalisch 
bleibt, 

- in welchen Ibilbereiche der PAE, die zur Ausfuhrung der momentanen Datenverarbeitung irrelevant sind, 
von der Tto- und/oder Stromvecs(»gung gclrennt sind, 

- in welchen die PAE von der Spannungsversorgung getrennt isL 



Hieizu 16 Seite(n)Zeichnungen 
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